﻿Tehnici de Ingineria Limbajului Natural Curs 1 Niveluri de prelucrare applicate limbajului natural Construcția de resurse, prelucrări inițiale ale documentelor și nivelul subsintactic Curs: Dan Cristea Laboratoare: Diana Trandabăț, Mihaela Onofrei, Daniela Gîfu, Ionuț Pistol Cât de departe poate merge mașina în înțelegerea limbajului? Tehnologiile limbajului natural probează capacitatea de a utiliza limbajul natural în aplicații • Proba supremă: “înțelegerea” textelor => capacitatea de a reacționa corect la mesajul codificat în text – niveluri de analiză: • lexical • morfologic • sintactic • semantic • discurs • pragmatic However, humans process texts differently… • We are not conscious about all these layers of processing • We can easily recognise erroneous messages, by skipping over errors (with respect to morphology, syntax, etc ) – therefore, our way of treating language is more like associations-based than rules-based – we integrate, combine, different sources of knowledge when taking language decisions – when educated, we recognise errors but we are not mislead by them CyRo – build a technology that interprets old Cyrillic Romanian • Train OCR classifiers to decode printed, semi-uncial and cursive Cyrillic Romanian documents • Ambitious goals of a mixt consortium – library curators – paleolinguists – image processing experts – computational linguists drd Cristian Pădurariu Probleme: - pete - deteriorări - nealinieri - distorsiuni - set neuniform de caractere - diacritice - scrieri printre rânduri ori pe manșetă - etc Sometimes more such steps are short- circuited in the natural brain Example of technologies: Google Translate • Example based translation Etichetare morfologică dr Radu Simionescu